Still Still-Moving是一款由DeepMind开发的AI视频生成框架,主要功能包括通过轻量级的空间适配器将用户定制的文本到图像(T2I)模型特征适配至文本到视频(T2V)模型,实现无需特定视频数据即可生成定制视频。其核心优势在于结合T2I模型的个性化和风格化特点与T2V模型的运动特性,从而生成高质量且符合用户需求的视频内容。 AI项目与工具 2025年06月12日 49 点赞 0 评论 392 浏览
EzAudio EzAudio是一款基于文本到音频(Text-to-Audio, T2A)生成模型,通过优化的扩散变换器架构和高效的数据训练策略,实现了快速生成高质量音频的功能。它支持多种应用场景,如音乐创作、影视后期制作、语音合成等,并具备高保真度和低资源消耗的特点。 AI项目与工具 2025年06月12日 73 点赞 0 评论 217 浏览
TinyVLA TinyVLA是一种轻量级的视觉-语言-动作(VLA)模型,专为机器人操控设计。它通过结合多模态模型和扩散策略解码器,实现了快速推理、数据高效和多任务学习的能力,并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域,具有广泛的实用价值。 AI项目与工具 2025年06月12日 91 点赞 0 评论 428 浏览
EMOVA EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手,具备处理图像、文本和语音的能力,支持情感化语音对话,并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制,广泛应用于客户服务、教育辅助、智能家居控制等多个领域。 AI项目与工具 2025年06月12日 55 点赞 0 评论 340 浏览
MHA2MLA MHA2MLA是一种由多所高校与研究机构联合开发的数据高效微调方法,基于多头潜在注意力机制(MLA)优化Transformer模型的推理效率。通过Partial-RoPE和低秩近似技术,显著减少KV缓存内存占用,同时保持模型性能稳定。仅需少量数据即可完成微调,适用于边缘设备、长文本处理及模型迁移等场景,具备高兼容性和低资源消耗优势。 AI项目与工具 2025年06月12日 47 点赞 0 评论 403 浏览